重要的是要了解流行的正则化方法如何帮助神经网络训练找到良好的概括解决方案。在这项工作中,我们从理论上得出了辍学的隐式正则化,并研究了损失函数的Hessian矩阵与辍学噪声的协方差矩阵之间的关系,并由一系列实验支持。然后,我们在数值上研究了辍学的隐式正规化的两个含义,这直觉上合理化了辍学有助于概括。首先,我们发现辍学的训练与实验中的标准梯度下降训练相比,发现具有最低最小的神经网络,而隐式正则化是找到平坦溶液的关键。其次,经过辍学的训练,隐藏神经元的输入权重(隐藏神经元的输入权重由其输入层到隐藏的神经元及其偏见项组成),往往会凝结在孤立的方向上。凝结是非线性学习过程中的一个功能,它使神经网络的复杂性低。尽管我们的理论主要集中在最后一个隐藏层中使用的辍学,但我们的实验适用于训练神经网络中的一般辍学。这项工作指出了与随机梯度下降相比,辍学的独特特征,是完全理解辍学的重要基础。
translated by 谷歌翻译
了解深度学习的理论研究非常重要。在这项工作中,我们发现了一个嵌入原则,即nn的损失格局“包含”浅NN损失景观的所有关键点。我们发现的关键工具是在这项工作中提出的关键起重操作员,该操作员将网络的任何关键点映射到任何更深层网络的关键流形,同时保留输出。该原则为许多广泛观察到的DNN行为提供了新的见解。关于深层网络的易于培训,我们表明可以将NN的局部最低限制为更深的NN的严格鞍点。关于批准归一化的加速度效应,我们证明了批处理的归一化有助于避免通过抑制层线性化来从较浅的NN中提起的临界歧管。我们还证明,增加训练数据会缩小临界歧管,这可能导致训练加速,如实验中所示。总体而言,我们对深度嵌入原则的发现发现了深度学习损失格局的深度层次结构,这为进一步研究DNN的深度作用提供了坚实的基础。
translated by 谷歌翻译
由于极大数量的参数和评估标准和再现性,机器学习长期以来被视为黑盒子,用于预测燃烧化学动力学和缺乏评估标准和再现性。目前的工作旨在了解关于深度神经网络(DNN)方法的两个基本问题:DNN需要的数据以及DNN方法的一般数据。采样和预处理确定DNN训练数据集,进一步影响DNN预测能力。目前的工作建议使用Box-Cox转换(BCT)来预处理燃烧数据。此外,这项工作比较了在没有预处理的情况下进行了不同的采样方法,包括蒙特卡罗方法,歧管采样,生成神经网络方法(Cycle-GaN)和新提出的多尺度采样。我们的研究结果表明,通过歧管数据训练的DNN可以以有限的配置捕获化学动力学,但不能对扰动牢固,这对于与流场联系的DNN是不可避免的。蒙特卡罗和循环甘套采样可以覆盖更宽的相位空间,但不能捕获小规模的中间物种,产生差的预测结果。基于没有特定火焰仿真数据的多尺度方法的三层DNN,允许在各种场景中预测化学动力学并在时间的演变期间保持稳定。该单个DNN易于用几个CFD代码实现并在各种燃烧器中验证,包括(1)。零维自动化,(2)。一维自由传播火焰,(3)。具有三重火焰结构的二维喷射火焰,和(4)。三维湍流升降火焰。结果证明了预先训练的DNN的令人满意的准确性和泛化能力。 DNN和示例代码的FORTRAN和PYTHON版本在补充中附加了再现性。
translated by 谷歌翻译
提出了一种基于深度学习的模型减少(DeepMR)用于简化化学动力学的方法,并使用高温自动点火,完全搅拌反应器(PSR)和一维自由传播的正庚烷/空气混合物的一致性。减少机制被建模为布尔空间的优化问题,其中布尔向量,与物种对应的每个条目表示减少的机制。优化目标是最小化给定考虑到一组预选的基准量的误差的机制尺寸。 DeepMR的关键思想是使用深度神经网络(DNN)来制定优化问题中的目标函数。为了有效地探索高维布尔空间,实现了一种迭代的DNN辅助数据采样和DNN训练过程。结果表明,DNN辅助显着提高了采样效率,仅为10 ^ {34}美元的样本中选择了10 ^ 5美元的样品,以实现足够的准确性。结果证明了DNN识别关键物种的能力,合理预测机制性能降低。训练有素的DNN通过解决反向优化问题,保证了最佳减少的机制。通过比较点火延迟时间,Laminar火焰速度,PSR的温度,得到的骨骼机制具有更少的物种(45种),但与通过路径通量分析(PFA)方法获得的骨骼机制(56种)相同的精度水平。另外,如果仅考虑大气,近化学计量条件(0.6和1.2之间的等效比),则骨骼机构可以进一步减少到28种。 DeepMR提供了一种进行模型减少的创新方法,并演示了燃烧区域中数据驱动方法的巨大潜力。
translated by 谷歌翻译
虽然深入学习算法在科学计算中表现出巨大的潜力,但其对多种问题的应用仍然是一个很大的挑战。这表明了神经网络倾向于首先学习低频分量的“频率原理”。提出了多种深度神经网络(MSCALEDNN)等新颖架构,以在一定程度上缓解此问题。在本文中,我们通过组合传统的数值分析思路和MscaledNN算法来构建基于子空间分解的DNN(被称为SD $ ^ 2 $ NN)架构。所提出的架构包括一个低频正常DNN子模块,以及一个(或几个)高频Mscalednn子模块,其旨在分别捕获多尺度解决方案的平滑部分和振荡部分。此外,在SD $ ^ 2 $ NN模型中包含了一种新的三角激活函数。我们通过常规或不规则几何域中的几个基准多尺度问题展示SD $ ^ 2 $ NN架构的性能。数值结果表明,SD $ ^ 2 $ NN模型优于现有的现有型号,如MSCALEDNN。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
虽然辍学措施在深度学习中取得了巨大成功,但对于如何帮助训练在高维参数空间中发现良好的普遍化解决方案,众所周知。在这项工作中,我们表明,与标准梯度血统训练相比,辍学的训练发现了一个更平坦的最小值。我们进一步研究了通过实验辍学发现更平坦的最小值的潜在机制。我们提出了一种{\ IT方差原理},噪声横向的较小方向噪声的变化更大。现有的作品表明,SGD满足方差原则,这导致趋势趋势达到更少的最小值。我们的工作表明,辍学引起的噪音也满足了差异原则,解释了为什么辍学发现更漂亮的最小值。一般而言,我们的工作指出,方差原则是辍学和SGD之间的重要相似性,导致培训寻找更平坦的最小值并获得良好的概括。
translated by 谷歌翻译
在本文中,我们通过模型 - 操作员数据网络(Mod-Net)提出了一种机器学习方法,用于解决PDE。 Mod-net由模型驱动,以基于操作员表示从数据的正则化求解PDE。对于线性PDE,我们使用DNN来参数化绿色的功能,并获得神经运营商根据绿色的方法近似解。为了训练DNN,经验风险由具有最小方形配方的平均平方损失或控制方程和边界条件的变分制。对于复杂的问题,经验风险还包括一些标签,这些标签在具有廉价计算成本的粗网点上计算,并显着提高了模型精度。直观地,除模型约束外,标记的数据集还可作为正则化。 Mod-Net解决了一个PDE系列,而不是特定的PDE,并且比原始神经运营商更有效,因为需要少量昂贵的标签。我们在求解泊松方程和一维辐射传输方程方面显示Mod-Net非常有效。对于非线性PDE,非线性MOD-NET可以类似地用作ansatz来求解非线性PDE,通过求解几个非线性PDE问题,例如汉堡方程。
translated by 谷歌翻译
了解深神经网络的损失景观结构(DNN)显然是重要的。在这项工作中,我们证明了一个嵌入原则,即DNN“包含”所有较窄DNN的所有关键点的损失景观。更确切地说,我们提出了一个临界嵌入,使得任何临界点,例如较窄的DNN的临界点,例如局部或全局最小值,可以嵌入到目标DNN的临界点/超平面,具有更高的退化性并保持DNN输出功能。关键点的嵌入结构与损耗功能和训练数据无关,显示与蛋白质折叠等其他非凸起问题的显着差异。凭经验,我们发现宽DNN通常被嵌入来自窄DNN的高度简并关键点引起。嵌入原理为广泛DNN的普遍易于优化提供了解释,并且在训练期间揭开潜在的隐式低复杂性正则化。总体而言,我们的工作为DNNS的损失景观提供了骨架及其含义,可以在附近预期更精确和全面的理解
translated by 谷歌翻译
隐式正常化对于了解神经网络的学习非常重要(NNS)。实证工作表明,隐藏神经元的输入重量(隐藏神经元的输入重量由其输入层的重量与隐藏的神经元的重量组成,其偏置术语)与小初始化的隔离取向凝结。冷凝动力学意味着训练隐含地将一个NN定制为一个具有更小的有效尺寸的NN。在这项工作中,我们利用多层网络来表明初始训练阶段中的浓缩方向的最大数量是激活函数的多倍,其中“多重性”是原点的激活函数的多个根。我们的理论分析确认了两种情况的实验,一个是具有任意维度输入的多个尺寸输入的激活函数,其包含许多常见的激活功能,而另一个是具有一维输入和任意多个层的层。这项工作迈向理解初始化的初始化程度的初始训练阶段的凝结程度缩小了缩写,这为未来研究NNS的非线性动态和其隐式正则化效果的初步研究奠定了基础。
translated by 谷歌翻译